import jieba
from sklearn.feature_extraction.text import CountVectorizer


# data = ["生活很短，我喜欢python", "生活太久了，我不喜欢python"]
# 单个的字或者字母不当做特征
data = ["生活　很短，我　喜欢　python", "生活　太久　了，我　不喜欢　python"]

#todo 尝试用英文文本的方式提取中文，发现是一句话一句话的抽取
cv = CountVectorizer()
# 特征抽取
result = cv.fit_transform(data)

# 特征名：
print(cv.get_feature_names())
# ['我不喜欢python', '我喜欢python', '生活太久了', '生活很短']
print(result.toarray())


#todo 利用结巴分词来拆分
j_result = jieba.cut("我是一个好程序员")
print(j_result) #是一个对象
# 遍历分词结果，加入列表
content = []
# ['我', '是', '一个', '好', '程序员']
for w in j_result:
    content.append(w)
print(content)
# 当以空格分开来抽取的时候，就可以抽取出特定的词了
str_content = " ".join(content)
